llm对话

多模态学习：让 LLM 对话系统 “能看会听”

传统 LLM 对话系统仅依赖文本交互，而多模态学习能融合文本、图像、语音、视频等多种信息，让对话突破 “纯文字” 限制 —— 比如用户发送一张 “猫咪呕吐” 的照片并提问 “它怎么了”，系统能结合图像特征与文本问题，给出更精准的宠物健康建议。这种技术让 LLM